查看原文
其他

菜鸟团一周文献推荐(No.22)

生信菜鸟团 生信菜鸟团 2022-06-07
写在前面:
我们的「每周文献推荐」栏目已经来到了第 22 。为了方便你阅读原文,我们为每篇推荐文献都增加了原文链接二维码。上期精彩文献回顾
菜鸟团一周文献推荐 (No.21)

上期最受欢迎的文章是「Magic-BLAST, an accurate RNA-seq aligner for long and short reads」,一款长序列和短序列的新型RNA-seq比对工具,欢迎使用体验投稿。
欢迎你在文章最后选出最感兴趣的文章并转发推荐给你的朋友一起投票参与。





供稿人:Lakeseafly
一句话评价
再见线性基因参考序列,你好基因组图谱
文章信息
题目:Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype
杂志:Nature Biotechnology
时间:Aug 2019
链接:  
https://www.nature.com/articles/s41587-019-0201-4 和 https://www.nature.com/articles/s41587-019-0199-7
figure
基因组图谱的展示:


文章介绍:
摘要
构成人类参考基因组的30亿个核苷酸的线性序列几乎用于支持所有人类遗传学研究和临床测序。随着数千个人类个体基因组的常规测序的出现,人们越来越认识到基于单一的参考基因组的比对具有很大的局限性,例如不能充分利用所有可用的人类基因组数据,难以发现个体特有的但参考基因组中不存在的变异等。研究者创新性的基因图谱去解决线性基因组的局限,他们发现基于图形的比对方法比标准的“线性”基于参考的比对方法具有更高的比对灵敏度和准确度,特别是对于高度多态性的基因组区域。这种方法使用创新的索引方案进行快速和记忆效率的比对,以及独特的基因分型方法(HISAT基因型),可以对高度多态性区域进行基因分型。他们的工具将遗传变异信息的整个数据库整合到分析中,即使对于携带参考基因组缺失的可变单倍型的个体也能够进行高度准确的基因型调用。

个人评价

对于如何解决单一参考基因组比对所带来的局限性,一直是近年来生物信息学研究的一个热点。基于图形的参考基因组(能融合各种不同个体的变异)一直是被视为解决这个问题最好的办法。随着工具得日益成熟,我猜测基于图形的参考基因组日后并将取带目前线性的参考序列。这篇文章可能是我近来读到对未来生物信息界能产生巨大影响,并且可能会改变我们所有分析工具方法,推荐给想窥视未来的各位小伙伴一读。




供稿人:六六

一句话评价

快速、省资源的长读长基因组组装软件 Peregrine — 100分钟内完成人类基因组组装

文章信息

题目:Human Genome Assembly in 100 Minutes

杂志:bioRxiv

时间:15 July 2019

链接:

https://www.biorxiv.org/content/10.1101/705616v1



figure


SHIMMER index 的产生和Peregrine组装流程


文章介绍:
三代测序技术以长度长为主要特点,与二代测序技术相比,使从头组装更容易,但同时也伴随着价格昂贵、计算资源消耗多等限制。如为PacBio特定设计的组装器——HGAP,组装一个人类的基因组需要20,000—30,000核时。大多数长读长组装软件利用的都是(OLC) Overlap-layout-consensus 的方法,需要all-to-all读长比较,计算复杂度是reads的4次方。Peregrine 使用的是Sparse Hierarchical Minimizers (SHIMMER) 为reads建索引从而避免all-to-all reads比较的步骤。
Peregrine 组装30X 的人类PacBio CCS reads在100分钟内即可完成,所用资源少于30个核时,且N50可以达到 > 20MB.
Peregrine的使用文档:https://github.com/cschin/Peregrine
如果想进一步了解DNANexus的Jason Chin博士(Jason是Asembly领域的大牛,FALCON的作者)亲自分享讲解的PPT请发邮件至bioinfortime@163.com,邮件主题「基因组组装」。
推荐理由:在保证组装准确性的前提下,时间和计算资源可以大幅减少的组装软件将会进一步促进三代测序的广泛使用,以及探索重测序检测不到的变异位点。




供稿人:Christine

一句话评价

一篇精简的肿瘤异质性研究综述

文章信息

题目:Resolving genetic heterogeneity in cancer

杂志:Nature Reviews Genetics

时间:27 March 2019

链接: 

https://www.nature.com/articles/s41576-019-0114-6


figure



文章介绍:

肿瘤的发展在很大程度上是符合亚克隆细胞的突变-选择-进化规律的。测序技术的发展为我们描绘了绝大多数癌症类型的基因组景观,也给研究肿瘤的时空进化带来了机会。相比于传统的物种进化方式,肿瘤由大量染色体不稳定的细胞组成,表型的可塑性也更强,因此进化更快,方式也更加复杂。研究肿瘤细胞的进化有助于我们理解癌症治疗失败的原因,也能帮助我们预测患者的肿瘤发展方向,提供更准确的治疗方案。本文综述了目前肿瘤异质性的研究进展和存在的问题,包括:当前存在的肿瘤进化模型、推断进化模式的方法、染色体不稳定性在进化中的作用、进化模式与患者结局见的关系、治疗抗性亚克隆的来源。相比动辄上百页的鸿篇巨制,这篇综述倒是十分凝练,正文只有11页,推荐相关方向的小伙伴们看一看。



供稿人:思考问题的熊

一句话评价

一篇综述介绍新生转录本(Nascent RNA)的研究内容和分析方法

文章信息

题目:Nascent RNA analyses: tracking transcription and its regulation

杂志:Nature Reviews Genetics

时间:09 August 2019

链接: 

https://doi.org/10.1038/s41576-019-0159-6



figure
新生RNA的检测方法优劣



文章介绍:

这是一篇最新出炉的关于「新生 RNA」分析的综述。从新生 RNA 的研究方法和调控方式等多个方面进行了全面的介绍。

生物体转录过程是利用 RNA 聚合酶通过 DNA 模板合成 RNA 分子的过程。在真核生物中,RNA聚合酶I和III合成核糖体RNA和小结构的RNA,而聚合酶II则用于合成编码mRNA,长链非编码RNA,microRNA和增强子RNA(其实在植物中还有聚合酶IV 和 V)。

作者首先介绍新生RNA相关的测序方法。其中新生RNA富集的策略主要包括:chromatin- associated RNA (caRNA) , Pol II-associated RNA,Run-on RNA和Metabolic RNA labelling富集。如果想要研究不同的转录步骤,可以综合采用上面的不同的测序方法。调控方式则包括转录周期调控,共表达过程调控和转录后修饰调控。




供稿人: Forest_Lee

一句话评价

使用机器学习算法找到软组织肉瘤的novel marker

文章信息

题目:Machine learning analysis of gene expression data reveals novel diagnostic and prognostic biomarkers and identifies therapeutic targets for soft tissue sarcomas

杂志:Computational Biology

时间:February 20, 2019

链接: 

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006826


figure



文章介绍:

软组织瘤病的亚型预后不同,但在形态学上难以鉴别,本研究旨在通过算法找到不同亚型的差异位点。

使用TCGA、the Genotype-Tissue Expression project and the French Sarcoma Group转录组数据。

我们使用unsupervised t-Distributed Stochastic Neighbor Embedding clustering和深部神经网络找到了三组肿瘤的分子结构重叠。

使用随机森林算法,发现软组织瘤病亚型间新的位点,并且在独立数据集中使用qRT-PCR进行验证。

使用k-nearest neighbor 算法,找到区别不同预后的分子位点,并进行独立验证。

对Connectivity Map的数据进行调节网络重建,发现HDAC抑制剂在治疗多种软组织肉瘤中发挥重要作用。

本研究发现了针对软组织肉瘤的诊断marker、预后marker和治疗leads。

故而机器学习是加强我们对罕见实体瘤理解新的优异工具。



供稿人:Resister
一句话评价
跨平台和跨物种的单细胞分类计算工具SingleCellNet
文章信息
题目:SingleCellNet: A Computational Tool to Classify Single Cell RNA-Seq Data Across Platforms and Across Species
杂志:Cell Systems
时间:2019年7月31日
链接: 
https://www.ncbi.nlm.nih.gov/pubmed/31377170

figure



文章介绍:

分析单细胞RNA-seq数据的一个主要障碍是确定每个细胞的身份。这个过程通常很耗时,容易出错,并且缺乏定量的严格性。此文章中的SingleCellNet (SCN)解决了这一挑战,它提供了对单细胞RNA-seq数据的定量分类。

² SingleCellNet (SCN)支持对scna -seq数据进行定量分类。

² SCN可以跨平台、跨物种应用。

² SCN可以对工程实验细胞发展的方向进行评估。

工具使用方法以及详细指导文档:https://github.com/pcahan1/singleCellNet

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存